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信息 类 .导航 类 与 事务 类 查询 的 网 络 动态 性 


分 析 - 
张 晓 娟 


(西南 大 学 计算 机 与 信息 科学 学 院 重庆 400715) 


摘要 : 【 目的 ] 分 析 信 息 类 、 导 航 类 与 事务 类 查询 随时 间 的 网 络 动态 性 特征 ,以 期 为 搜索 引擎 性 能 优化 提供 相关 


依据 。[ 方法 ] 利用 相关 评测 指标 分 别 从 查询 动态 、 文 档 内 容 动 态 和 信息 需求 动态 三 个 角度 出 发 , 分 析 不 同意 图 


类 别 查 询 随时 间 变 化 所 呈现 的 特征 ; 针对 不 同意 图 类 别 查 询 , 分 析 在 不 同 查 询 流行 度 特征 中 ,其 文档 内 容 以 及 


言 息 需 求 的 变化 情况 。[ 结果 】 在 查询 流行 度 分 布 方面 , 信息 类 查询 通常 包含 波峰 , 事务 类 查询 更 可 能 包含 多 个 
波峰 且 具 有 周期 性 ， 导航 类 查询 通常 保持 平滑 趋势 ; 信息 类 查询 随 网 页 内 容 与 信息 需求 变化 幅度 均 比 其 他 两 类 
查询 的 要 大 。[ 局 限 】 观察 时 间 段 只 有 29 天 ; 未 对 不 包含 波峰 与 包含 多 个 波峰 的 查询 流行 度 分 布 图 中 波峰 进行 


归 类 与 自动 识别 。[ 结论 ] 对 于 信息 类 查询 来 说 , 搜索 引擎 尽 可 能 地 对 其 查询 结果 进行 多 样 化 展示 ; 对 于 导航 类 
查询 来 说 , 搜索 引擎 需要 保证 与 之 相关 权威 网 页 在 查询 结果 中 的 靠 前 性 ; 对 于 与 用 户 交 互 行为 相关 的 事务 类 查 


询 , 应 长 时 间 保 持 相 关 网 页 排序 不 变 ; 对 于 一 些 与 娱乐 相关 事务 类 查询 , 在 网 页 排序 中 需 考 虑 网 页 的 新 突 性 。 
关键 词 : 信息 类 查询 事务 类 查询 ”导航 类 查询 ”查询 动态 信息 需求 动态 文档 内 容 动 态 
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自 BroderD 按 照 用 户 意 图 (或 用 户 任务 ) 将 查询 划 
分 为 信息 类 、 导 航 类 、 事 务 类 三 大 类 别 后 , 学 界 对 如 
何 选取 分 类 特征 实现 三 大 查询 类 别 之 间 的 有 效 区 分 进 
行 了 大 量 研究 2 。 由 于 Broderl"1 对 查询 进行 分 类 的 最 
终 目 的 是 为 了 使 搜索 引擎 能 够 根据 不 同意 图 类 别 查询 
为 用 户 提供 不 同 的 检索 服务 ， 而 获取 和 分 类 查询 仅仅 
是 手段 ,因此 如 何 对 归 类 后 的 查询 进行 分 析 并 以 此 为 
搜索 引擎 性 能 优化 提供 依据 是 一 重要 研究 方向 。 

作为 用 户 交 互信 息 的 场所 , 网络 呈现 出 动态 变化 
特征 。 其 中 , A Kulkarni 等 5 研究 的 启发 ， 本文 从 用 
户 获 取信 息 的 角度 将 网 络 动态 性 主要 分 为 查询 动态 、 
信息 需求 动态 和 文档 内 容 动态 三 方面 。 查 询 动态 是 指 
大 众 用 户 所 提交 某 查 询 的 频次 随时 间 而 发 生 的 变化 ; 


m} 


信息 需求 动态 是 指 用 户 针对 同一 查询 的 大 众 信息 需求 
随时 间 而 发 生 的 变化 ,如 用 户 在 马来西亚 航空 公司 
MH370 空难 之 前 提交 查询 “ 马 航 ”的 一 般 信息 需求 是 
想 获 得 与 马 航 相 关 航 班 信息 ,而 在 马 航空 难 发 生 后 , 用 
户 提交 该 查询 的 一 般 信 息 需 求 更 可 能 与 该 空难 相关 ; 
文档 内 容 动 态 性 是 指 在 不 同时 间 点 与 某 查询 相关 文档 
之 间 的 内 容 差异 性 。 网 络 动态 性 的 特征 分 析 有 助 于 搜索 
引擎 从 动态 角度 理解 用 户 意图 与 网 页 内 容 变化 规律 ， 
使 得 检索 结果 能 满足 用 户 即 时 信息 需求 。 如 在 查询 推荐 
中 ,通过 对 查询 动态 性 分 析 ， 能 为 用 户 推荐 当前 较为 
流行 的 查询 ; 在 查询 结果 排序 中 , 通过 对 信息 需求 动 
态 和 文档 动态 分 析 ， 能 准确 定位 与 用 户 最 新 信息 需求 
相关 的 文档 。 因 此 ,如 何 使 检索 结果 适应 网 络 动态 性 
特征 是 搜索 引擎 性 能 优化 中 需 考虑 的 重要 方面 之 一 。 

在 信息 检索 中 , 用 户 意图 类 别 被 认为 是 很 重要 的 
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用 户 情景 因素 , 直接 影响 用 户 获取 信息 的 途径 以 及 想 
要 获取 信息 的 类 型 只。 因此 , 搜索 引擎 在 为 适应 网 络 动 
态 性 而 进行 性 能 优化 时 , 也 需 考虑 相关 的 用 户 意图 
素 。 鉴 于 此 , 本 文 将 对 不 同 任务 类 别 查询 (如 信息 类 、 
导航 类 与 事务 类 查询 ) 的 网 络 动态 性 进行 比较 与 分 析 ， 
以 期 为 搜索 引擎 针 对 不 同 用 户 意图 的 网 络 动态 性 能 优 
化 提供 相关 依据 。 


2 国内 外 研究 现状 


2.4 查询 意图 相关 研究 

2002 年 ，Broderl 通 过 用 户 调 研 与 对 AltaVista 查 
询 日 志 分 析 将 查询 意图 分 为 信息 类 、 导 航 类 和 事务 
类 。 信 息 类 意图 (如 查询 “竞价 广告 ”,“ 如 何 减 肥 ”) 指 用 
户 以 一 种 静态 方式 去 查询 被 认为 能 在 网 络 上 获取 到 的 
言 息 ， 除 阅读 之 外 无 其 他 交互 信息 , 查找 内 容 可 以 是 
数据 、 文 档 、 文 或 多 媒体 ,信息 需求 既 可 以 是 精确 的 


方面 , 本 文 也 从 这 三 方面 对 其 加 以 综述 。 

(1) 查询 动态 性 研究 主要 集中 在 通过 观察 查询 随 
时 间 变 化 规律 预测 一 些 社会 现象 ,如 Beitze 等 中 利用 
查询 日 志 数据 分 析 每 小 时 内 查询 流行 度 (Query 
Popularity) 与 查询 主题 的 变化 情况 ; Valchos 等 首次 
尝试 利用 傅 里 叶 分 析 为 网 络 查询 的 周期 性 和 突 发 性 建 
Fi; Ginsberg 等 由 通过 分 析 大 量 查 询 在 查询 日 志 中 出 
现 情况 跟踪 流感 疾病 在 人 群 中 的 爆发 情况 ; Adar 等 中 
利用 查询 词 频 的 变化 理解 用 户 以 往 行为 并 推测 其 将 要 
发 生 的 行为 。 

(2) 信息 需求 动态 性 研究 主要 集中 在 如 何 构建 模 
型 定位 用 户 实时 性 意图 从 而 实现 查询 推荐 或 者 检索 结 
果 重 排序 , 如 Johansson 等 5 通过 构建 图 模型 表征 查 
询 与 潜在 用 户 意图 的 动态 关系 ， 以 此 能 在 不 同时 间 点 
获得 与 原始 查询 信息 需求 相关 的 候选 查询 推荐 ; 
Whiting 等 (根据 查询 在 查询 日 志 中 出 现 频 率 捕捉 用 


又 可 以 是 模糊 的 ; 导航 类 (如 查询 “国家 留学 基金 委 网 
站 ”,“ 阿 姆 斯 特 丹 大 学 主页 ”) 指 用 户 查找 某 个 特定 网 
站 (网 页 ), 该 网 站 (网 页 ) 可 以 是 个 人 网 站 (网 页 ) 也 可 以 


是 组 织 网 站 (网 页 ) 等 ， 即 用 户 在 执行 检索 时 已 在 头脑 
中 形成 了 查找 意向 , 知道 或 者 认为 存在 网 址 可 以 满足 
自己 的 信息 需求 ; 事务 类 意图 (如 查询 “七 里 香 FR”, 
“Gmail 注册 ”) 指 用 户 通过 查找 获取 一 些 资源 或 网 络 
服务 ， 比 如 购买 、 下 载 等 。 在 文献 [1] 的 基础 上 , 文 
献 [2- 和 探讨 了 如 何 选取 分 类 特征 ， 以 此 实现 这 三 类 查 
询 的 自动 区 分 ; 另外 还 有 学 者 尝试 通过 对 不 同意 图 类 
别 查 询 的 特征 进行 分 析 ， 以 此 为 不 同意 图 类 别 查 询 构 
建 检 索 模 型 ， 如 Fuji 首先 根据 查询 词 在 网 页 锚 文 本 
中 分 布 情况 识别 该 查询 是 事务 类 还 是 信息 类 查询 , H 
通过 分 析 发 现 导航 类 查询 适合 基于 锚 文 本 的 检索 方 
ik, 而 信息 类 查询 适合 基于 内 容 的 检索 方法 ; Craswell 
等 外 为 信息 类 与 导航 类 查询 提出 了 不 同 的 检索 排序 模 
型 ,其 实验 结果 表明 ,基于 链接 排序 的 方法 能 够 有 效 
提高 导航 类 查询 的 检索 性 能 ; Ali 等 中 通过 对 信息 类 、 导 
航 类 与 事务 类 查询 分 别 在 搜索 引擎 Yahoo 和 Google 中 检 
索 结果 对 比分 析 得 知 ，Google 针对 事务 类 查询 的 检索 准 
确 率 最 高 ,而 Yahoo 对 信息 类 查询 的 检索 准确 度 最 高 。 
2.2 网络 动态 性 相关 研究 

如 Kulkarni 等 中 的 归 类 ， 网 络 动态 性 研究 主要 包 
括 查 询 动态 性 、 信 息 需 求 动 态 性 和 文档 内 容 动态 性 三 


数据 分 析 与 知识 发现 


户 最 新 信息 需求 ， 以 此 实现 能 满足 用 户 实时 性 意图 的 
查询 推荐 ; Alonso 等 5 通过 利用 文档 的 时 间 片 段 建立 
检索 模型 ; Berberich 等 (9 利用 数学 建 模 为 不 同时 间 段 
查询 提供 不 同 的 多 样 化 检索 结果 。 
(3) 文档 内 容 动态 性 的 主要 相关 研究 集中 在 如 何 采 
用 相关 方法 衡量 网 页 文档 内 容 变化 规律 , 如 Cho 等 中 基 
于 词 级 别 对 4 个 月 内 网 页 内 容 的 变化 情况 进行 分 析 发 
现 , 25 40% 的 网 页 内 容 每 周 都 会 发 生变 化 ; Fetterly 等 四 
首先 分 析 每 个 网 页 内 容 随时 间 的 变化 程度 ,再 分 析 与 
变化 程度 相关 的 因素 , 其 实验 发 现 网 页 内 容 变化 程度 
与 该 网 页 的 域名 相关 ; Ntoulas 等 5 利用 词 级 别 分 析 网 
页 内 容 变 化 情况 ; Kim 等 2 利用 网 页 相关 用 户 行为 (如 
下 载 频 率 、 修 改 频率 等 ) 衡 量 网 页 随时 间 变 化 情况 ; 
Cho 等 中 利用 网 页 中 的 超 链 接 信息 衡量 网 页 变化 情 
Di; Adar 等 中 基于 网 页 中 DOM 元 素 以 及 单个 词 随时 
间 变 化 情况 ,提出 衡量 网 页 内 容 变 化 的 算法 和 模型 ; 
Kausar 等 中 提出 根据 网 页 中 哈 希 码 (Hash) 的 变化 情况 
判断 网 页 内 容 是 否 发 生 了 变化 。 总 之 , 基于 词 信息 是 
衡量 网 页 内 容 变 化 的 最 常用 方法 。 
另外 , 还 有 学 者 探讨 了 如 何 利用 网 络 动态 特征 (如 
查询 动态 与 网 页 内 容 动态 ) 提 高 搜索 引擎 性 能 ， 如 
Alonso 等 的 提出 一 种 基于 文本 中 时 间 表 达 式 对 查询 
结果 进行 聚 类 的 方法 ; Alfonseca 等 中研 究 表明 查询 周 
期 性 能 提高 查询 建议 的 准确 度 ; Dakka PIFRE T fE 
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针对 同一 问题 在 不 同时 间 点 提供 不 同 答 案 的 问答 系 
统 ; Zahedi 等 "首先 识别 查询 中 包含 的 时 间 段 信息 ， 
再 将 其 融合 博客 检索 模型 中 ,以 此 返回 特定 时 间 段 的 
博客 信息 ; Elsas 等 中 将 时 间 属 性 融合 到 语言 模型 中 ， 
以 此 提高 导航 类 查询 检索 结果 的 准确 度 ; Syed SE 
出 一 种 能 根据 查询 中 不 同 用 户 意 图 而 提供 不 同 检索 结 
果 的 检索 模型 。 综 合 已 有 研究 可 以 看 出 ,目前 仍 未 有 
对 信息 类 、 导 航 类 与 事务 类 查询 进行 网 络 动 态 性 分 析 
的 相关 人 研究 。 


3 衡量 网 络 动态 性 的 方法 


3.1 衡量 查询 动态 的 方法 
本 文采 用 查询 流行 度 分 布 站 "衡量 查询 动态 性 
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H, 查询 流行 度 分 布 是 指 在 特定 时 间 范 于 内 ,查询 在 
具体 每 天 出 现 频次 与 该 时 间 范 围 内 总 出 现 频次 比值 的 
分 布 。 为 了 能 从 更 次 层次 揭示 查询 动态 特征 , 本文 根 
据 Kulkarni 等 自从 波峰 数 、 波 峰 形 状 与 整体 趋势 对 查 
询 流行 度 分 布 的 归 类 , 提出 自动 识别 其 不 同类 别 的 相 
关 方 法 。 

(1) 基于 波峰 数 的 查询 流行 度 分 布 分 类 

(Dok 9 Fl 

从 查询 流行 度 分 布 中 所 包含 的 波峰 数 角度 ， 查 询 流 行 
度 分 布 可 分 为 不 包含 波峰 、 和 包含 一 个 波峰 以 及 包含 多 个 疲 
峰 三 类 别 ， 如 图 1 所 示 。 当 查询 流行 度 分 布 中 包含 多 个 波 
峰 时 ， 又 可 将 其 细 分 为 具有 周期 性 与 不 具有 周期 性 两 类 ， 如 
图 1(c)- 图 1(d) 所 示 。 其 中 , 图 1 中 横 轴 表示 具体 某 一 天 (本 
文中 观察 时 间 范 围 为 29 天 ), 纵 轴 表示 查询 流行 度 值 。 
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(c) 多 个 波峰 (不 具 周 期 性 ) (d) 多 个 波峰 (周期 性 ) 
图 1 查询 流行 度 分 布 中 的 波峰 类 别 
加 波峰 类 别 识别 两 个 突 发 点 之 间 的 时 间 间 隔 相 等 则 说 明 该 查询 在 观察 时 间 内 


从 图 1 中 可 以 看 出 ， 当 查询 流行 度 分 布 中 存在 波峰 时 ， 
该 波峰 对 应 的 查询 概率 值 远 远大 于 其 邻近 时 间 点 的 概率 值 ， 
本 文 将 此 概率 值 所 对 应 的 时 间 点 称 为 突 发 点 。 据 观察 可 知 ， 
每 个 波峰 对 应 一 个 突 发 点 。 因 此 ， 本 文通 过 对 突 发 点 的 识别 
判断 某 查 询 流行 度 分 布 中 的 波峰 数 ， 且 所 采用 方法 是 移动 
平均 方法 09。 当 查询 流行 度 分 布 中 存在 多 个 突 发 点 时 ， 若 每 


的 查询 流行 度 随时 间 分 布 具有 周期 性 ; 反之 , 不 具 周 期 性 。 
(2) 基于 波峰 形状 的 查询 流行 度 分 布 分 类 
(查询 流行 度 分 布 的 波峰 形状 
当 茶 查询 流行 度 分 布 中 包含 一 个 波峰 时 ,其 波峰 形状 

可 分 为 以 下 4 类 : 

1) Wedge( 模 子 ): 即 查询 流行 度 分 布 中 出 现 波 峰 前 后 时 
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间 点 的 查询 流行 度 随时 间 上 升 和 下 降 的 速率 相同 ， 如 图 2(a) 
所 示 ; 
2) Castle (城堡 ): 即 查询 流行 度 分 布 中 出 现 波峰 后 ， 其 
查询 流行 度 值 在 后 续 一 段 时 间 内 保持 稳定 ， 如 图 2(b) 所 示 ; 
3) Sail( 帆 状 ): 在 某 时 间 内 迅速 上 升 到 峰值 后 再 缓慢 地 
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FT, 如 图 2(c) 所 示 的 右 帆 状 ; 或 查询 流行 度 在 某 段 时 间 内 
缓慢 上 升 到 波峰 值 后 再 在 较 短 时 间 内 迅速 下 降 (1 或 2 天 之 
内 )， 如 图 2(d) 所 示 的 左 帆 状 。 

需 指出 的 是 ， 当 查询 中 不 包含 波峰 值 或 者 当 查询 中 包含 
多 个 波峰 值 时 ， 其 整体 形状 的 划分 不 在 本 文 探 讨 范围 之 内 。 


0.45 0.35 
ve sat 0.25 
zx 030 E i 
it 0.25 £ 0.20 
E 0.20 E 0.15 
期 0.15 期 010 
0.10 
0.05 0.05 
1 3 5 7 911131517 19 2123 25 2729 1 3 5 7 911131517 19 2123 25 2729 
时 间 时 间 
(a) HTAR (Wedge) (b) 城堡 状 (Castle) 
0.25 0.25 
0.20 0.20 
E E 
is 0.15 ie 0.15 
© 0.10 i 0.10 
a 期 
0.05 0.05 


1357911131517 19 2123 25 2729 
时 间 
(c) 右 帆 状 (Right sail) 


0 PT 
1357911131517 19 2123 25 2729 
时 间 
(d) 左 帆 状 (Left sail) 


图 2 查询 流行 度 分 布 中 的 波峰 形状 


@) 查 询 流行 度 整体 形状 识别 

获得 查询 流行 度 分 布 中 最 大 概率 值 已 以 及 相应 的 时 间 
点 上 上 L， 若 该 时 间 点 前 的 相 邻 两 时 间 点 概率 之 差 
B,-B,,(2X€s&n-t-1l, nh 为 总 观察 天 数 ) 与 该 时 间 点 
后 的 相 邻 两 时 间 点 之 差 已 ,-P， 的 差 值 绝对 值 ( 即 
(Pas — Pasa (Bas BU T — X BE CUR CER A 
0.0005), 则 该 波峰 形状 为 模子 形状 。 

当 查 询 流行 度 分 布 不 是 模子 形状 时 : 若 在 时 间 点 1 后 ， 
对 于 任意 一 点 m (1+1 三 m 三 n,n 表示 总 观测 天 数 ) 来 说 ， 若 
| 一 P| 与 |B,wi 一 ,| 之 间 差 值 绝对 值 小 于 一 定 阅 值 (本 
文 设 定 为 0.0005)， 则 该 波峰 旦 城堡 形状 ; BP -P_ MKT 
一 定 阔 值 (本 文 设 定 为 8x P.) MP-P, 值 小 于 一 定 阅 值 
(EP 0.01x Pi), 则 该 波峰 星 现 左 帆 状 ; 3 P.-P ht 
x BAUR RH HIRE A: 0.01x P1) 而 -PP, 值 大 于 一 定 
BECP 8x 已 ,)， 则 该 波峰 呈 右 帆 状 。 

(3) 基于 整体 趋势 的 查询 流行 度 分 布 分 类 

图 3 分 别 表 示 查 询 流 行 度 整体 趋势 所 属 的 类 别 ， 


数据 分 析 与 知识 发 现 


即 向 上 趋势 、 向 下 趋势 、 平 滑 趋 势 以 及 上 升 -下 降 趋 
势 。 在 观察 时 间 内 , 若 不 存在 突 发 点 ， 则 该 趋势 为 平 
IB; 若 约 有 不 少 于 75% 的 概率 值 (PP) 大 于 其 后 一 时 间 
段 的 概率 值 P_ (2 三 1 三 n,n 为 总 观察 天 数 ), 其 整体 
趋势 呈 向 上 趋势 ; 若 有 不 少 75% 的 概率 值 小 于 其 后 
一 时 间 段 的 概率 值 P_ (1 三 1 万 n,n 为 总 观察 天 数 )， 
其 整体 趋势 呈 向 下 趋势 ; 若 存 在 一 个 突 发 点 ,其 整体 
趋势 呈 上 升 - 下 降 趋势 。 
3.2 ”衡量 信息 需求 动态 的 方法 

点 击 信息 是 表征 用 户 信息 需求 的 重要 来 源 , 用户 
针对 同一 查询 的 点 击 信息 变化 也 能 在 一 定 程 度 上 体现 
用 户 针 对 该 查询 的 信息 需求 变化 情况 中 。 基 于 此 , 本 
文 基于 点 击 炉 (Click Entropy)50 衡 量 用 户 信息 需求 变 
化 情况 , 其 计算 方法 如 公式 (1) 所 示 。 


clickEntropy(q) = > —P(d|q)log,P(d|q) (1) 
deD(q) 
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0 
1 3 5 7 9 11131517 192123252729 


时 间 时 间 
(a) 向 上 趋势 (b) 向 下 趋势 
0.25 0.25 
0.20 
un 
BN 0.15 
IP 
0.10 
x 
0.05 
Oy 494-9970-9-9- 9-499-094-0999 4 4-499 
T1111 0 
1 3 5 7 9 11131517 19 2123 25 2729 1 3 5 7 911131517 19 2123 25 2729 
时 间 时 间 
(c) 平滑 趋势 (d) 上 升 -下 降 趋 势 


HB, clickEntropy(q) 表示 查询 4 WAL, D 
表示 用 户 提交 查询 q TI PRA, PCd|q) R 
MELEH q 后 点 击 文档 d 的 概率 。 本 文 假设 若 用 户 
针对 某 查 询 在 不 同时 间 点 的 点 击 炉 值 变 化 越 大 , 表明 
用 户 信息 需求 随时 间 变 化 越 大 ; RZ, 用 户 信息 需求 
随时 间 变 化 越 小 。 为 了 获得 某 查 询 随时 间 的 信息 需求 
变化 情况 ,首先 计算 观察 时 间 段 (本 文 设 定 为 29 天 ) 内 
每 个 观察 时 间 点 t (2 <t S29) 5 ti — 7 WS INT TR 
tl Zia SA, TEOSPULSEIN [8] P3 PCT 
ARABAR FEGE AvgClickEntropy) 
得 到 该 查询 的 信息 需求 变化 值 。 其 中 , AvgClickEntropy 
值 越 大 表明 查询 随时 间 的 信息 需求 变化 越 大 , 反之 越 
小 。 需 说 明 的 是 , 本 文 在 此 探讨 是 大 众 用 户 的 信息 需 
求 ， 而 非 个 性 化 需求 。 

3.3 ”衡量 文档 动态 方法 

本 文采 用 基于 文档 中 词 信息 来 衡量 网 页 内 容 变 化 
情况 , 采用 指标 主要 基于 单个 词 变化 的 TF-IDF 余弦 
距离 值 外 和 基于 词 串 变化 的 Shingle Fi gi P"! 

(1) TF-IDF 余弦 距离 值 

Das (B, Py) 用 于 计算 给 定 两 个 不 同 网 页 形式 Pi 


图 3 查询 流行 度 


分 布 中 整体 趋势 图 
与 P; 之 间 的 TF-IDF 余弦 距离 值 ， 如 公式 (2) 所 示 。 
Degg (P, B) -d3-  — Q) 
bells lido 


其 中 , vy 5 v, rl EXE Pi 与 Py 的 TF-IDF 权 
值 向 量 。wvw 表示 向 量 v 与 v 的 内 积 , db Sirol, 分 
别 表示 向 量 v 与 v 的 模 。D.,,,(B,PB) 值 越 大 , 说明 两 
网 页 之 间 差 异性 越 大 ; 反之 , 其 值 越 小 。 

(2) Shingle 距离 

Shingle 距离 5 首先 将 文档 中 连续 几 个 字符 串 视 为 
该 文档 的 一 个 Shingle, 如 将 某 文 档 连 4 个 字符 串 组 成 
一 个 Shingle, 则 该 文档 中 的 一 段 文 本 (a，rose，is，a， 
rose, is, a, Tose) 的 Shingle 集合 为 : {(a, rose, is, a), (rose, 
is, a, rose), (is, a, rose, is)) 。 再 利用 公式 (3) 衔 量 两 不 同 
网 页 之 间 Shingle 的 变化 情况 。 

Sh(D') N Sh(D?) 
ShSim(D) = ————————— (3) 
N 

Hp, SAD) 与 ShD?) 分 别 表示 文档 D! 5 D? 

中 包含 的 Shingles 集合 ，N 表示 两 个 文档 中 Shingle 
合 个 数 。 衡 量 文档 随时 间 变 化 的 指标 ShDIff (D) = 
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1-ShSim(D) , 该 指标 值 越 大 ， 表明 网 页 之 间 内 容 差 
距 越 大 。 本 文 将 文档 中 连续 三 个 字符 串 ( 非 停 用 词 ) 视 
为 一 个 Shingle。 

为 获得 某 查询 gq 在 观察 时 间 段 (本 文 设 为 29 KAN 
的 文档 内 容 变化 值 ( 记 作 ContentChange), 笔者 首先 为 
该 查询 在 每 个 观察 时 间 点 获得 点 击 排序 前 5 的 文档 集 
合 , 再 分 别 利用 TF-IDF 余 弦 和 Shingle 距 离 计 算 每 个 观 
察 点 1(2 SES 29 ) 的 文档 集合 与 前 一 个 观察 点 大 1 的 
文档 集合 之 间 任 意 两 文档 之 间 内 容 差异 值 ,经 平均 值 


后 可 得 到 该 查询 在 某 时 间 相对 前 一 时 间 的 内 容 变化 值 
GEE m), 再 对 该 观察 时 间 段 内 所 有 mm (4) 值 求 平 
均 从 而 可 获得 该 查询 的 ~ContentChange 值 。 该 值 越 大 ， 
说 明 查 询 随 时 间 的 文档 内 容 变化 越 大 ; 反之 , 越 小 。 


4 ”实验 数据 集 


笔者 采用 Sogou 实验 室 发 布 的 2008 年 6 月 (6 月 1 
日 -6 月 29 日 ) 查 询 日 志 数据 作为 实验 数据 集 , 数据 格 
式 如 表 1 所 示 。 


#1 Sogou 查询 日 志 数据 格式 样 
Ree Ey, EE 用 户 点 击 URL 在 ”用户 点 击 的 
j 户 访问 时 隔 ID Win d ; 户 点 击 的 URL 
用 户 访问 时 间 JEDA 查询 词 返回 结果 中 的 排名 顺序 号 J E HS 
00:00:03 35804326352621896 [免费 取 名 ] 3 1 http://huaxia.wangzhan8.com/ 
00:00:03 07321773511158924 [欧美 金发 女郎 ] 2 4 http://a.se2222.com/Html/OPIC/index.html 
00:00:03 43080219994871455 [google] 1 1 http://www.google.com/ 


受 人 力 以 及 时 间 的 限制 , 本 文 无 法 对 查询 日 志 数 
据 中 的 每 个 查询 进行 分 析 , 故 笔者 首先 利用 泊 松 抽样 
方法 PC 从 Sogou 日 志 数 据 集中 抽取 了 3000 个 查询 ， 
且 这 些 查询 满足 以 下 条 件 : 在 查询 日 志 中 出 现 频 次 不 
WF 2000; 每 天 至 少 包 含 $ 个 不 同 的 被 点 击 URL. 

笔者 要 求 三 位 标注 者 对 这 3 000 个 查询 应 属 类 别 
(信息 类 、 导 航 类 与 事务 类 ) 进 行人 工 标注 。 考 虑 到 一 
个 查询 可 能 属于 多 种 类 别 , 例如 ,给 定 查询 “MP3”， 用 
户 潜在 意图 可 能 有 : 了 解 MP3 的 相关 信息 ， 即 信息 类 
查询 ; 到 达 某 个 MP3 网 站 , 即 导 航 类 查询 ; 下 载 MP3 


格式 的 文件 ， 即 为 事务 类 查询 ,因此 , 笔者 在 此 要 求 标 
注 者 标记 出 查询 在 大 多 数 情况 下 应 该 属于 的 类 别 。 在 
标注 过 程 中 ,若菜 查询 的 用 户 意图 类 别 难以 判断 时 ， 
将 由 三 位 标注 者 共同 商讨 决定 。 经 过 人 工 标 注 , 分 别 
获得 305 个 导航 类 查询 , 752 个 事务 类 查询 和 1 943 个 
信息 类 查询 。 最 后 再 通过 随机 抽样 方法 分 别 从 每 个 类 
别 查 询 中 各 抽取 100 个 样本 查询 用 于 实验 分 析 。 为 探 
讨 与 查询 相关 网 页 内 容 随 时 间 变 化 情况 ,笔者 为 每 个 
查询 每 天 选取 点 击 频 次 排名 前 5 的 URL, FRAG d 
程序 抓 取 了 每 个 URL 的 网 页 内 容 , 最 后 再 对 每 个 网 页 
进行 正文 提取 “、 分 词 处 理 等 处 理 。 


CDhttp://www.sogou.com/labs/dl/q.html. 
@https://github.com/stanzhai/Html2 Article. 
@)https://github.com/NLPIR-team/NLPIR. 
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5 实验 结果 分 析 


查询 动态 分 析 

在 给 定 Sogou 查询 日 志 数 据 集中 , 笔者 对 所 选取 
信息 类 、 导 航 类 与 事务 类 查询 的 查询 动态 进行 统计 分 
Tr. 得 到 各 意图 类 别 查 询 在 不 同 查 询 流 行 度 分 布 中 的 
比值 情况 , 如 表 2 所 示 。 

表 2 信息 类 、 导 航 类 与 事务 类 查询 在 各 类 查询 流行 度 


5.1 


分 布 中 的 比值 
查询 类 别 eee 
A 6 3H 
波峰 特征 信息 类 导航 类 有 务 类 

无 波峰 32% 90% 36% 

波峰 数 一 个 波峰 59% 10% 36% 
多 个 波峰 9% 0% 28% 

No 8% 0 18% 

周期 性 
Yes 1% 0 10% 

城堡 2% 0% 1% 

Hs 0, 0, 0, 

波峰 形状 左 帆 状 6% 0% 7% 
右 帆 状 38% 8% 3% 

模子 13% 0% 28% 

ENS 25% 0% 22% 

平滑 10% 68% 23% 

整体 趋势 

向 上 20% 17% 45% 

上 升 -下 降 45% 15% 10% 


可 知 针对 查询 流行 度 分 布 中 所 包含 波峰 数 来 说 ， 
大 多 数 (90%) 导 航 类 查询 不 包含 波峰 , 说 明 用 户 对 导 
航 类 查询 相关 主题 的 需求 比较 稳定 。 据 笔者 观察 可 知 ， 
不 包含 波峰 的 导航 类 查询 大 多 数 ( 约 76%) 与 一 些 事 业 
单位 相关 ， 而 包含 波峰 的 导航 类 查询 大 多 数 ( 约 71%) 
与 公司 名 相关 。 超 过 一 半 (68%) 的 信息 类 查询 包含 波 
WE, 日 这 些 查 询 大 多 (81%) 与 新 闻 事件 相关 ,而 不 包含 
波峰 的 信息 类 查询 多 与 某 些 概念 相关 (如 查询 “搜索 引 
擎 原理 ”); 事务 类 查询 约 64% 包 含 波峰 ,上 且 这 些 查 询 
大 多 与 电视 节目 相关 ; 当 查 询 流行 度 中 包含 多 个 波峰 
时 ,信息 类 与 事务 类 查询 中 查询 流行 度 分 布 都 更 有 可 
能 不 具 周 期 性 。 通 过 数据 对 比 可 知 , 信息 类 查询 中 查 
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5.2 ”信息 需求 动态 性 分 析 

基于 所 选取 的 查询 日 志 数据 集 ， 笔 者 分 别 计算 出 信 
息 类 、 导 航 类 与 事务 类 查询 在 观察 内 的 AvgClickEntropy 
值 , 其 结果 如 表 3 所 示 o 
表 3 信息 类 、 导 航 类 与 事务 类 查询 的 AvgClickEntropy (A 


查询 类 别 AvgClickEntropy fH 
FEX 3.31 
导航 类 1.78 
事务 类 1.17 


从 表 3 数据 可 知 , 信息 类 查询 随时 间 的 信息 需求 
变化 幅度 大 于 其 他 两 类 查询 。 为 了 探讨 不 同意 图 类 别 
查询 AvgClickEntropy 值 的 差异 性 ,笔者 采用 两 独立 样 


询 流 行 分 布 更 可 能 包含 一 个 波峰 ,而 事务 类 查询 中 查 
询 流行 度 分 布 更 可 能 包含 多 个 波峰 且 更 有 可 能 具有 周 
期 性 。 

对 于 查询 中 只 包含 一 个 波峰 时 的 波峰 形状 来 说 ， 
言 息 类 ( 约 38%) 与 导航 类 查询 ( 约 8%) 更 有 可 能 呈现 右 
WAR, 说 明 用 户 对 信息 类 与 导航 类 查询 的 兴趣 更 可 
能 是 在 短 时 间 内 产生 ， 且 在 后 续 时 间 内 兴趣 度 是 逐 
渐 下 降 ; 而 事务 类 查询 更 有 可 能 ( 约 28%) 呈 现 棉 子 状 ， 
说 明了 用 户 对 事务 类 相关 主题 的 兴趣 产生 和 消失 速度 
一 致 。 

对 于 查询 查询 流行 度 中 总 体 趋 势 来 说 , 信息 类 查 
询 与 事务 类 查询 更 有 可 能 ( 约 45%) 旦 现 上 升 - 下 降 趋势 
的 , 说 明 用 户 在 特定 时 间 类 对 信息 类 查询 的 兴趣 更 可 
能 具有 波动 性 ; 导航 类 查询 更 有 可 能 ( 约 68%) 呈 现 平 
滑 趋势 , 说 明 用 户 对 此 类 查询 的 信息 需求 更 可 能 具有 
稳定 性 ， 且 据 观 察 可 知 ， 呈 平滑 趋势 的 导航 类 查询 多 
与 某 组 织 机 构 相 关 ( 如 查询 “北京 大 学 ”), 而 呈 癌 上 趋 
势 与 上 升 - 下 降 趋势 的 导航 类 查询 多 与 公司 名 相关 或 
者 某 名 人 主页 相关 (如 查询 “刘德华 ”博客 ”); 对 于 事 
务 类 查询 来 说 , 也 更 有 可 能 呈现 向 上 趋势 , 说 明 用 户 
对 事务 类 查询 相关 主题 的 关注 度 更 可 能 随时 间 上 升 。 


nad 


本 :检验 进行 分 析 , 其 结果 如 表 4 所 示 。 


表 4 信息 类 、 导 航 类 与 事务 类 查询 间 信 息 需 求 变 化 
差异 度 
查询 类 别 1 统计 量 的 观测 值 
信息 类 与 导航 类 32.64* 
导航 类 与 事务 类 1.04 
信息 类 与 事务 类 21.21* 


GE: * 表示 显著 性 水 平 : p < 0.05 ) 


从 表 4 数据 可 知 , 信息 类 与 其 他 两 类 意图 类 别 查 
询 之 间 存 在 着 显著 性 差异 (信息 类 与 导航 类 之 间 : t 统 
计量 的 观测 值 为 32.64, 置信 和 度 概 率 p<0.05; 信息 类 与 
事务 类 之 间 : 上 统计 量 的 观测 值 为 21.21， 置 信和 度 概率 
p «0.05). 
5.3 ”文档 内 容 动 态 性 分 析 

基于 为 样本 查询 采集 到 的 结果 和 集 数据 , 笔者 分 利 
用 TF-IDF 与 Shingle 两 指标 计算 不 同类 别 查询 中 的 
ContentChange(q) 平 均值 ， 最 终结 果 如 表 5 所 示 。 
表 5 信息 类 、 导 航 类 与 事务 类 查询 中 的 

ContentChange(q) 平 均值 


查询 类 别 TF-IDF 平均 值 ShDiff 平 均值 
信息 类 0.46 0.34 
导航 类 0.23 0.19 
事务 类 0.32 0.25 


另 笔者 发 现 ,呈现 平滑 趋势 的 事务 类 查询 大 多 与 用 户 
交互 行为 相关 ， 比 如 说 查询 “yahoo 邮 箱 注册 ”， 而 呈现 
向 上 、 上 升 - 下 降 趋势 的 事务 类 多 与 娱乐 活动 信息 相 
K, 如 游戏 下 载 或 者 电视 节目 观看 等 。 数 据 对 比 结果 
可 以 说 明 , 导航 类 查询 保持 平滑 趋势 的 概率 更 高 , 信 
息 类 查询 呈现 上 升 - 下 降 趋势 的 概率 更 高 ,而 事务 类 
查询 呈现 向 上 趋势 的 概率 更 高 。 


从 表 5 数据 可 知 ， 相 对 事务 类 和 导航 类 查询 , 信 
息 类 查询 随时 间 的 网 页 内 容 变化 较 大 ,而 导航 类 查询 
的 网 页 内 容 变化 幅度 最 小 。 为 了 探讨 不 同意 图 类 别 查 
询 间 TF-IDF 平均 值 值 与 ShDif 平 均值 之 间 的 差异 性 ， 
笔者 使 用 两 独立 样本 t 检验 进行 分 析 , 其 结果 如 表 6 
所 示 。 
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表 6 信息 类 、 导 航 类 与 事务 类 查询 之 间 随 时 间 的 
网 页 内 容 变 化 差异 度 
查询 类 别 TF-IDF 平均 值 ShDiff 平均 值 
信息 类 与 导航 类 23.10* 13.40* 
导航 类 与 事务 类 0.25* 0.44* 
信息 类 与 事务 类 2.45* 5.23* 


(HE: * 表示 显著 性 水 平 : p < 0.05 ) 

从 表 6 数据 可 知 , 信息 类 与 其 他 两 类 意图 类 别 查 询 
之 间 存 在 着 显著 性 差异 (信息 类 与 导航 类 之 间 TF-IDF F 
均值 : t 统 计量 的 观测 值 为 23.10, 置信 和 度 概率 p<0.05; fà 
息 类 与 事务 类 之 间 TF-IDF 平均 值 : t 统 计量 的 观测 值 为 
245, p<0.05; 信息 类 与 导航 类 之 间 ShDif 平 均值 : 1 统计 
量 的 观测 值 为 13.40， 置 信和 度 概率 p<0.05; 信息 类 与 事务 
类 之 间 平 均值 : 1 统计 量 的 观测 值 为 5.23, p«0.05.) 
54 ”信息 需求 动态 与 文档 动态 随 查 询 动态 的 分 析 

相对 其 他 两 类 网 络 动态 性 特征 来 说 ,查询 流行 度 
特征 更 容易 观察 到 。 因 此 ,笔者 尝试 探讨 不 同类 别 查 
询 在 不 同 查询 流行 度 中 其 信息 需求 动态 和 网 络 动态 的 
特征 ， 以 期 能 通过 较 易 观察 特征 推测 其 隐 含 特征 提供 
相关 依据 。 

(1) 信息 需求 动态 分 析 

为 了 获得 信息 类 、 导 航 类 与 事务 类 查询 在 不 同 查 
询 动态 中 信息 需求 变化 情况 , 分 别 计算 不 同意 图 类 别 
查询 在 不 同 查询 动态 特征 中 AveClickEntropy 值 ， 其 结 
果 如 表 7 TAR 


表 7 信息 类 、 导 航 类 与 事务 类 查询 在 不 同 查 询 动 态 中 


AvgClickEntropy 平均 值 
查询 类 别 aay ; : 
E Lr 
波峰 特征 信息 类 航 类 事务 类 
无 0.02 0.11 0.23 
波峰 数 一 个 波峰 1.74 0.81 1.01 
多 个 波峰 3.52 = 2.34 
Yes 5.51 一 3.28 
No 3.52 3.24 2.34 
城堡 0.09 1.54 0.09 
左 帆 状 1.52 = 1.52 
波峰 形状 
右 帆 状 1.52 1.48 1.50 
模子 3.12 - 2.24 
下 降 4.45 三 4.35 
上 升 2.53 1.70 2.31 
整体 趋势  _、 
平滑 1.12 0.71 1.13 
上 升 -下 降 5.24 2.09 4.03 
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AR 7 数据 可 知 ， 只 包含 一 个 波峰 查询 的 
AvgClickEntropy 值 低 于 包含 多 个 波峰 的 查询 的 
AvgClickEntropy E, 说 明 包含 多 个 波峰 的 查询 中 包含 
的 用 户 信息 需求 随时 间 变 化 幅度 越 大 ; 当 不 同意 图 类 
别 查 询 包 含 相同 波峰 时 , 信息 类 查询 中 信息 需求 变化 
幅度 大 于 其 他 两 类 查询 。 无 论 查询 流行 度 分 布 是 否 具 
有 周期 性 来 , 信息 类 查询 的 信息 需求 变化 幅度 相对 其 
他 两 类 查询 要 大 。 

对 于 查询 流行 度 分 布 中 的 波峰 形状 来 说 ， 当 波峰 
形状 呈 模 子 时 , 信息 类 查询 的 信息 需求 变化 幅度 大 于 
事务 类 查询 ;， 当 波峰 形状 呈 城 堡 形状 时 , 事务 类 查询 
的 信息 需求 变化 幅度 大 于 信息 类 查询 ; 当 波 峰 形状 呈 
帆 状 时 , 信息 类 、 导 航 类 和 事务 类 查询 的 信息 需求 变 
化 幅度 几乎 一 致 。 对 于 查询 流行 度 的 不 同 整体 趋势 来 
说 , 分 布 趋势 为 平滑 查询 的 信息 需求 变化 幅度 相对 较 
小 ,而 分 布 趋势 为 上 升 或 者 下 降 趋势 查询 的 信息 需求 
变化 幅度 相对 较 大 。 且 针对 不 同 整 体 趋势 来 说 , 信息 
类 查询 的 信息 需求 变化 幅度 相对 其 他 两 类 查询 要 大 。 

(2) 文档 内 容 动态 分 析 

为 获得 信息 类 、 导 航 类 与 事务 类 查询 在 不 同 查询 
动态 特征 中 的 网 页 内 容 变 化 情况 , 笔者 分 别 计算 了 不 
同意 图 类 别 查 询 在 各 查询 动态 特征 中 相应 的 
ContentChange(q) 平均 值 ， 具体 结果 如 表 8 所 示 。 

表 8 信息 类 、 导 航 类 与 事务 类 查询 在 不 同 查询 流行 度 
特征 中 的 网 页 内 容 变化 情况 
ContentGhaneeca) 
(TF-IDF) (ShDiff) 
信息 类 导航 类 事务 类 信息 类 导航 类 事务 类 
无 波峰 0.10 0.09 0.20 0.41 0.18 0.35 
波峰 数 一 个 波峰 0.442 0.19 0.30 0.44 0.32 043 


==! 


查询 流行 度 类 别 


多 个 波峰 049 - 041 0532 = 0.44 
Yes 0.44 0.32 0.34 0.43 0.20 0.27 
周期 性 
No 0.49 - 045 057 =- 0.38 
城堡 0.30 021 0.41 0.43 0.42 033 
波峰 ZWAR 0.38 - 042 035 =- 0.40 
形状 右 帆 状 0.36 0.38 0.38 0.34 0.35 0.38 
BUT 052 - 0.54 0.48 - 0.52 
平滑 0.54 0.45 0.52 0.61 0.41 0.57 
整体 下 降 052 = 052 052 = 0,52 
趋势 p 0.32 027 0.31 0.42 0.30 0.42 
上 升 - 下 降 0.20 0.19 021 029 0.19 0.28 
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可 知 , 在 观察 时 间 内 , 查询 流行 度 分 布 中 包含 的 
波峰 越 多 , 与 该 查询 相关 的 文档 内 容 变化 幅度 越 大 。 
当 不 同意 图 类 别 查 询 包 含 相同 波峰 时 , 信息 类 查询 的 
网 页 内 容 变 化 幅度 大 于 其 他 两 类 查询 。 在 查询 流行 度 
分 布 的 周期 性 中 , 周期 性 查询 的 网 页 内 容 变 化 幅度 小 
于 非 周期 查询 的 变化 幅度 ; 当 查 询 流行 度 分 布 具有 周 
期 性 时 , 信息 类 查询 的 网 页 内 容 变 化 幅度 大 于 事务 类 
查询 的 网 页 内 容 变 化 幅度 。 周 期 性 的 事务 类 查询 通常 
与 当前 流行 的 电视 节目 或 者 体育 事件 相关 , 周期 性 的 
言 息 类 查询 大 多 与 名 人 相关 。 

在 查询 流行 度 的 波峰 形状 中 , 模子 形状 的 网 页 内 
容 变化 幅度 分 别 大 于 帆 形 状 与 城堡 形状 的 网 页 内 容 变 
化 幅度 。 针 对 同一 波峰 形状 ， 事 务 类 查询 的 网 页 内 容 
变化 幅度 大 于 其 他 两 类 查询 的 网 页 内 容 变 化 幅度 。 在 
查询 流行 度 的 整体 趋势 中 , 呈现 上 升 - 下 降 趋势 查询 
的 网 页 内 容 变化 的 幅度 较 少 ， 而 平滑 与 下 降 趋 势 的 查 
询 的 网 页 内 容 变化 幅度 较 大 ,其 主要 原因 在 于 ,呈现 
上 升 与 下 降 趋 势 的 查询 包含 不 同 查询 分 面 ,用 户 在 不 
同时 刻 对 不 同 分 面 感 兴趣 ， 故 在 不 同时 刻 查 询 其 相关 
的 文档 内 容 存在 着 差异 性 。 另 外 , 针对 同一 整体 趋势 ， 
导航 类 查询 的 网 页 内 容 变化 幅度 小 于 其 他 两 类 查询 ， 
说 明 用 户 更 偏好 搜索 引擎 能 为 导航 类 查询 在 不 同时 间 
段 返回 内 容 比 较 一 致 的 网 页 。 


6 搜索 引擎 性 能 优化 的 相关 建议 


根据 以 上 实验 结果 分 析 , 笔者 对 搜索 引擎 相关 性 
能 优化 提出 了 以 下 建议 。 

(1) 对 于 信息 类 查询 来 说 , 需 随时 捕捉 查询 中 可 
能 包含 的 潜在 用 户 意图 ， 且 尽 可 能 地 对 其 查询 结果 进 
行 多 样 化 , 能 为 查询 的 不 同 分 面 返 回 相 关 信 息 , 满足 
用 户 多 样 化 需求 ; 男 对 查询 流行 度 包含 波峰 的 信息 类 
查询 , 在 波峰 产生 后 的 短 时 间 内 (3 天 -5 天 )， 可 优先 做 
为 相关 查询 的 候选 查询 推荐 。 

(2) 对 于 导航 类 查询 来 说 , 用 户 的 信息 需求 具有 
明确 性 , 则 搜索 引擎 需要 保证 与 之 相关 权威 网 页 在 查 
询 结 果 中 的 靠 前 性 ; 男 导航 类 查询 包含 的 用 户 信 息 需 
求 比较 固定 ， 则 搜索 引擎 针对 此 类 查询 返回 的 网 页 内 
容 可 保持 不 变 , 且 可 利用 长 时 间 信 息 ( 如 用 户 过 去 行为 
言 息 ) 优 化 查询 结果 。 

(3) 对 于 与 用 户 交互 行为 相关 的 事务 类 查询 , 其 
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用 户 需求 和 网 页 内 容 随 时 间 变 化 幅度 小 , 故 在 长 时 间 
保持 相关 网 页 排序 不 变 ; 对 于 一 些 与 娱乐 相关 事务 类 
查询 ， 用 户 可 能 周期 性 对 最 新 事件 感 兴趣 ， 故 搜索 引 
擎 可 周期 性 抓 取 最 新 网 页 ， 并 将 其 融合 到 查询 结果 中 ， 
且 在 网 页 排序 中 需 考 虑 网 页 的 新 颖 性 。 


7 结 if 


本 文 主要 从 查询 动态 、 信 息 需 求 动态 和 文档 内 容 
动态 三 方面 对 信息 类 、 导 航 类 与 事务 类 查询 的 网 络 动 
态 性 进行 分 析 。 另 外 , 还 进一步 分 析 了 不 同意 图 类 别 
查询 信息 需求 动态 与 文档 内 容 动 态 随 查询 动态 的 情 
况 。 最 后 , 还 对 搜索 引擎 性 能 优化 提出 了 相关 建议 。 
尽管 如 此 , 本 文 还 存在 一 些 不 足 之 处 , 也 是 笔者 后 续 
研究 工作 中 还 需 进 一 步 探讨 的 内 容 : 从 更 长 时 间 范 围 
探讨 网 络 动态 变化 特征 ; 进一步 对 不 包含 波峰 与 包含 
多 个 波峰 的 查询 流行 度 的 波峰 进行 归 类 且 提 出 自动 识 
别 的 方法 ; 综合 考虑 文档 结构 及 其 词 变化 来 识别 文档 
内 容 变化 情况 。 
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Analyzing Dynamic Informational, Navigational and Transactional 
Online Queries 


Zhang Xiaoojuan 
(School of Computer and Information Science, Southwest University, Chongqing 400715, China) 


Abstract: [Objective] This paper aims to improve the performance of search engines optimization through analyzing 
dynamic informational, navigational and transactional online queries. [Methods] First, the author analyzed user 
intentions with queries, Web documents and the information needs. Second, for each category of query intention, this 
paper investigated the changing of Web documents and information needs for different trending queries. [Results] The 
distribution of popular informational, transactional and navigational queries were different. The informational queries 
were more dependent on Web documents and needs than the other two types of queries. [Limitations] The data for this 
study was collected in 29 days. More research is needed to automatically identify and aggregate the popular queries. 
[Conclusions] Search engines need to list diversified results for informational queries. They need to keep the relevant 
pages on the first page for navigational queries, maintain the original ranking of relevant pages for the user 
behavior-related queries, and improve the novelty of results for the entertainment-related queries. 
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